#iteración de valor

Actualizaciones de objetivo duro promediadas geométricamente para Q-learning lineal

Descubre cómo el promedio geométrico de actualizaciones de objetivo duro estabiliza el Q-learning lineal. Un nuevo enfoque para mejorar el aprendizaje por refuerzo.

2026-06-10 · 2 min